2.2 Principales metodologías en ciencia de datos

En un proyecto de ciencia de datos es muy importante la metodología, pues proporciona al científico de datos una estrategia y un marco con el que trabajar. Desde finales del siglo XX se han ido proponiendo diversas metodologías, centradas en la resolución de problemas concretos mediante el uso de los datos, que hoy podrían englobarse bajo el paraguas común de la ciencia de datos.

Estas metodologías han nacido y se han desarrollado en el ámbito de los problemas de negocio, aunque todas son extrapolables a otros ámbitos de conocimiento (educación, ciencia, salud, etc.). Por tanto, en este capítulo (y, en general, en todo el manual) el término de “negocio” (empleado en las propias metodologías frecuentemente) debe ser entendido en sentido amplio, abarcando los diversos ámbitos del conocimiento en los que se aplica la ciencia de datos.

Por su amplio uso, destacan tres metodologías:

Obtención de conocimiento en bases de datos (en inglés Knowledge Discovery in Databases, KDD), propuesta por Fayyad et al. (1996) e inspirada en un trabajo previo de Brachman & Anand (1994), fue la primera metodología aceptada por la comunidad científica. Se trata del primer intento serio de sistematizar el proceso conocido hoy día como ciencia de datos y en aquellos tiempos como conocimiento basado en bases de datos, pues se centraba en la minería de datos.
SEMMA, acrónimo que coincide con las etapas de las que consta (en inglés, Sample, Explore, Modify, Model and Assess) fue desarrollada y mantenida por el Instituto SAS en 2012. Se define como el proceso de selección, exploración y modelización de grandes bases de datos para descubrir patrones de negocio desconocidos.
CRISP-DM, acrónimo en inglés de Cross Industry Standard Process for Data Mining, planteada inicialmente en 1996, publicada formalmente en Chapman et al. (2000) y mantenida durante varios años por la compañía SPSS, posteriormente adquirida por IBM, que se ha encargado de mantenerla y refinarla hasta la actualidad. Esta metodología define una secuencia flexible de seis fases que permiten la construcción e implementación de un modelo de minería de datos para ser utilizado en un entorno real, que contribuya a respaldar la toma de decisiones de negocio. Se considera la metodología más utilizada en la actualidad (Azevedo & Santos, 2008; Shafique & Qaiser, 2014, entre otros) y se describe en la siguiente sección.